DNA存储 | BT与IT融合的黑科技与未来产业
数字生命健康产业创新服务基因慧
伴随深海深空、产业互联网、大规模健康队列研究的需求,目前的存储介质即将无法满足数据生产需求,DNA存储技术适时出现。2021年,微软连同Illumina、西数等机构成立了DNA存储联盟,其中成员DNA Script近期获得2亿美元融资。恰逢“DNA数据存储”前沿论坛举办,基因慧基于会议内容总结如下。更多详情敬请关注即将发布的《DNA存储蓝皮书》,欢迎储存/算法/IT/通信/合成等机构参与合作。
文章 | 基因慧 编辑 | Kathy 审核 | Mark
关键词 | DNA存储
大数据需求推动DNA存储发展
图1 The World Keeps Creating More Data
(来源/IDC)
2021年,据IDC预测,2020年到2025年,全球数据量每年增加23%,而2025年全球数据量将达到180 ZB(1ZB=1024EB,1EB相当于一部可以播放36,000年的高清视频)。根据与会专家武汉病毒所刘翟研究员演讲,有97%的数据由于存储技术和存储规模的限制而无法被保存。
因此”互联网数据中心(IDC)技术转型,以及超高密度存储技术代表着未来的方向“。
而目前数据存储介质已经无法适配目前便捷、大规模的数据生产,主要包括:
市场缺乏信息密度更高的存储介质;
数据存储的能源利用率低,消耗能源偏高;
存储介质的使用年限较短,抗干扰性弱;
……
DNA存储是什么?
DNA存储定义
DNA存储技术,是基于组成DNA的四种碱基(A、C、G、T)来映射0和1,通过信息编码来进行存储。
相对传统介质(如硬盘),DNA存储基于分子流存储信息流,加上它的非周期性晶体等结构特点以及生物属性,因此DNA存储极其稳定、存储密度高且可以超长期存储。
图2 DNA存储领域进入快速发展阶段(徐讯 研究员)
(来源/“DNA数据存储”前沿论坛)
尽管DNA存储刚刚进入国人视野,但是早在1965年,其概念就已萌芽;2012年,DNA存储原理验证实现重大突破,紧接着霍夫曼算法、DNA喷泉码等算法的开发以及微软、华盛顿大学等机构的参与,快速推动了DNA存储的技术研发。
DNA存储主要包含6个步骤:编码、合成、存储、检索、测序、解码。
DNA存储核心技术——编码
其中,编码、合成及测序为DNA存储的核心技术,重难点是编码与合成,载体包括电化学芯片设计等。
DNA编码的本质是将代表的信息原始数据1和0转换成组成DNA分子的碱基序列的过程。其中,碱基指腺嘌呤(A),鸟嘌呤(G),胞嘧啶(C)和胸腺嘧啶(T),是核酸的主要成分,他们在DNA分子内以互补配对原则稳定存在。
图3 DNA数据存储使用的四种转码方法举例
(来源/GigaScience)
DNA编码方法有很多种,以George Church早期最简单的模式为例,将00分配给A,将01分配给T,将10分配给G,将11分配给C。使用这种编码方案,数字串0110110010将由碱基TGCAG编码并合成。
目前,DNA编码算法有Spiderweb算法、四进制Huffman直接编码法等;编码系统有:华大的YYC双阴阳编码系统、中科碳元的“悟空”编码系统等。
DNA存储核心技术——DNA合成
DNA合成是DNA存储重要步骤之一,合成方法有三种:
化学合成法(固相亚磷酰胺化学法);
酶促合成法;
微阵列DNA合成法。
图4 DNA人工合成技术(谢思佳 资深工程师)
(来源/“DNA数据存储”前沿论坛)
近年来,市场正逐步开发支持化学合成DNA的新工具和技术,例如电化学芯片合成法、喷墨打印合成法、微流体系统和数字光刻技术等,这些新工具和技术决定了合成序列的长度、生产速度和成本等。
DNA存储核心技术——DNA测序
不同测序技术有其优劣势,目前以Illumina、MGI、Thermo Fisher三家厂商的NGS测序仪;纳米孔单分子测序仪方面以PacBio和Nanopore为主,国内的齐碳科技明年即将量产。
DNA存储核心技术——解码
DNA解码与编码相对应,部分技术中需要检索。原理如下(以化学合成为例):
首先,采用算法将信息字节转换成为DNA序列;然后机器合成DNA序列, 产生多个序列拷贝。以磷酰胺为基础的固相柱上合成或固相介质上阵列合成,合成后的 DNA 材料可以克隆、并存储在生物细胞内(体内)或者体外(更常见);
其次,通过检索选择目标DNA,再使用映射到编码过程中所生成特定数据项的引物和PCR扩增,获得目标DNA,再通过测序仪获取DNA对应的序列;
最后,通过映射规则将序列转码成原始的0和1字节信息。
DNA存储的应用和产业培育
由于超高密度、极其稳定、超长期存储等特点,同时基于分子流代替介质存储信息流,DNA存储能够真正实现BT与IT的融合,其中BT包括分子材料、分子诊断、基因治疗、生物安全等;IT包括通信、存储、算法、DNA计算等。因此被相关专家认为是变革性技术之一。
DNA存储的应用还在早期,但是由于以上技术特点,以及BT和IT领域的融合,有极其广阔的应用空间。根据与会专家武汉病毒所刘翟研究员介绍,包括:
新型IDC模式;
新型数据信息加密;
实体化标签(精准医学的溯源与信息标签);
信息保护及保密;
……
尽管应用还在早期,但是随着头部IT及BT机构的参与,以及近年来技术(主要是编码技术以及合成技术)迭代,产业方面正在快速孕育。
国内DNA初创机构中科碳元获得千万元投资,2021年,微软连同Illumina、西数等机构成立了DNA存储联盟,其中成员DNA Script近期获得2亿美元融资。
DNA存储的发展趋势
由于DNA存储技术发展尚在早期,仍有很多问题未解决,根据与会专家清华大学汪小我教授介绍,包括:
噪声来源多样;
数据访问难;
读写成本高;
......
其中,成本高是最核心的难点,也是影响产业发展的关键。短期是合成成本,与会专家提供的建议仿造NGS思路提高并行化和试剂研发。长期是算力成本,需要算法设计和资源投入,当然包括芯片设计,需要分布走(根据北大钱珑助理研究员、华大生命科学研究院徐讯研究员等与会专家观点):
开发高效的底层生化技术(合成、测序),进一步降低成本;
深入研究物理层信道编码;特别是信息纠错;
数据结构与数据库设计;
可稳定存储大规模数据存储体系;
基于DNA链计算的数据调控功能,例如基因编辑工具的自动存储于更改;
开放工业标准;
……
20年间,DNA测序经历了7个数量级的成本降低,正快速应用于医疗服务和新药研发等方面。与会专家表示,DNA合成技术降低5-8个数量级,将从根本上推动DNA存储的转化应用;当然,还需加以信息编码、信道、算力等方面的共同协力,将科学家的梦想照进未来数字技术的现实,展现国际竞争力。
由于能力和篇幅局限,以上信息有所不足的地方敬请指正补充。我们将收录到即将发布的《DNA存储蓝皮书》,欢迎存储、算法、IT、通信、合成等相关企业参与蓝皮书合作。
同时,欢迎大家在评论区提出对DNA存储的需求及趋势展望,精选留言者将有机会获得将在今年发布的《2022基因行业蓝皮书》纸质版一本。
(注:以上内容未经与会专家审核,仅供学习参考。)
《2022基因行业蓝皮书》正招募联合发布单位
·扩展阅读·
关于我们
基因慧是一家数字生命健康产业创新服务平台,创立于 2016 年。创始团队深耕行业十余年,创建了产业信息数字化平台YourMap®,为政府、研究机构及企业提供产业咨询及科技推广服务,践行“使连接产生价值,用数据看见未来”的理念,与90%知名基因机构建立了合作,逐步拓展生命科技及产业创新服务。
▷ 国发改《战略性新兴产业发展展望》白皮书执笔
▷ 中国抗癌协会肿瘤标志专业委员会战略合作单位
▷ 中国遗传学会生物产业促进委员会委员
▷ 参与组织机构发布多项行业共识和团体标准
▷ 连续四年发布基因行业蓝皮书
▷ 组织基因检测联盟(筹)首届、第二届会议
▷ 主办数字健康私董会、大湾区生命健康创新论坛
▷ 受邀为华西、因美纳、华大、上海交大等作报告
▷ 广东省精准医学应用学会政策研究应用分会常委